introduction à la gestion des données en sciences exactes

Collège Doctoral de Bretagne

Damien Belvèze

Université de Rennes

2023-07-11

données de recherche, de quoi parle t-on ?

quels fichiers sont importants à mettre à disposition ?

  • raw_data_fish_counter.csv
  • intermediate_data.xls
  • filter1.py
  • first_draft_submission.pdf
  • fish_counter_calibration.md
  • kick_off_report.docx
  • filter2.py
  • notebook_experiment.ipynb
  • final_data_fish_counter.xls
  • project_presentation_funders.pptx
  • final_data.csv
  • study_draft.qmd
  • january_meeting_partners.docx
  • fish_counter_instructions_for_use.pdf
  • gantt_calendar.xlsx

Réponses

  • raw_data_fish_counter.csv
  • intermediate_data.xls
  • filter1.py
  • first_draft_submission.pdf
  • fish_counter_calibration.md
  • kick_off_report.docx
  • filter2.py
  • notebook_experiment.ipynb
  • final_data_fish_counter.xls
  • project_presentation_funders.pptx
  • final_data.csv
  • study_draft.qmd
  • january_meeting_partners.docx
  • fish_counter_instructions_for_use.pdf
  • gantt_calendar.xlsx

Pourquoi conserver ces données ?

pérennité de l’accès aux données

Gibney & Van Noorden (2013)

Un enjeu de Science Ouverte

principes FAIR

principes FAIR

ouverture / fermeture

  • “aussi ouvert que possible, aussi fermé que nécessaire”

  • Ouverture par défaut

  • fermeture à justifier :

    • données personnelles
    • propriété intellectuelle

rendre ses données trouvables

Qualité d’un répertoire :

  • renommée
  • pérennité (institution support)
  • licence ouverte
  • identifiant pérenne
  • richesse des métadonnées
  • curation

discipline entrepôt
images (SHS) MediHal
code Software Heritage via HAL
BioInformatique GenOuest
Sciences Humaines Nakala
Mathématiques pas d’entrepôt, voir avec le groupe RNBM
environnement, hydrologie Osuris
Sciences de la terre data terra
Sciences de la mer data ifremer, seanoe
sciences médicales entrepôt INSERM sur RDG
Ecologie, environnement et société Data.InDoRES et Cat.InDoRES

données accessibles ?

données interopérables ?

Quels identifiants utiliser pour le cuivre telluride ?
registre identifiant
CAS number 12019-52-2
PubChem CID number 6914517
PubChem SID number 24879035
openSMILES identifier [Cu].[Cu].[Te]
InChI identifier InChI=1/2Cu.Te
MDL number MFCD00049727

formats transparents ?

CSV vs XLS

Ziemann et al. (2023)

données réutilisables ?

  • Creative Commons (CC:by)
  • une licence écrite par un cabinet d’avocat expert en propriété intellectuelle et qui prévoit une multiplicité de cas d’usages autorisés ou prohibés
  • ODBL
  • Etalab
  • pas de licence, on fait ce qu’on veut avec mon jeu de données
  • CC0
  • CC:by pour tous le monde sauf pour les industries fossiles, les vendeurs d’armes et Google (Thomas (2023)).

Place à la pratique

exercice

Possibilité de s’exercer sur Recherche Data Gouv

bac à sable de RDG

Combien de silures dans la rivière Tydale tout au long de l’année

données fictives créées avec ChatGPT

   Day January February March April May June July August September October
1    1       5        3     8     4   2   10   11     12         9       7
2    2       3        7     2     5   4    8    1      6        11      10
3    3       6        4     9     7  11    3    8     5#         2       1
4    4       8        1     0     3   0    9   4#      7         5       2
5    5       2       10     7    12   8    4   11      1         6       3
6    6       4        0     3     1   5    7    2     10         0      12
7    7       7        5     1     9  10    2    6      3         4      11
8    8      11       0*     6     2   3    1    7      9        12      **
9    9       1       9*     4    11  7*    5   10     2#         3      **
10  10       9       2*    10     6  1*   11   3#      8         7      **
11  11       7       6*     5     1  9*   2#   4#     11         8      **
12  12       4      11*     1     8  5*    6    9      7        10      **
13  13      12       7*     2     4 11*    3    5      6         9      **
14  14       8       5*     3     7  6*   10   1#     2#         4      **
15  15       2       0*    10    12   4    8    6      9         0      **
16  16       6        1     8     2   7    4   11      3        10      **
17  17       3        4     7     5   1    9   2#     10         6      **
18  18       5        9     6    11   3    1   10      8         2      **
19  19       7        6     0     4  10   12   5#      1         8       3
20  20      11        2     9     3   8    5    6      4         1       7
21  21       1        7     3     5   6    4    8     11        10       2
22  22       0        3     8     4   2   10   11     12         0       7
23  23       3        7     2     5   4    8    1      6        11      10
24  24       6        4     9     0  11    3    8      5         2       1
25  25       8        1    11     3   6    9    4      7         5       2
26  26       2       10     7    12   0    4   11      1         6       3
27  27       4        6     0     1   5    7    2     10         8      12
28  28       7        5     1     9  10    2    6      3         4      11
29  29      11      N/A     6     2   3    1    7      9        12       4
30  30       1      N/A     4    11   7    5   10      2         3       8
31  31       9      N/A    10   N/A   1  N/A    3      8       N/A       5
   November December
1         6        1
2         9       12
3        10        6
4         8        4
5         0        5
6         4        9
7         1        7
8         5        2
9        11       10
10        3        1
11        6        4
12        2        8
13        4        3
14        1        5
15        0        2
16        8       11
17        3        7
18        7        1
19        2        6
20        9       10
21        4        9
22        6        1
23        9       12
24       10        6
25        8        4
26        7        5
27        4        9
28        1        7
29        5        2
30       11       10
31      N/A        1

Chère Prof. Armand,

Je joins à ce mail les données recueillies cette année par nos différents capteurs installés sur la Tydale dans le cadre de votre étude "Growth of glane silure catfish *silurus glanis* in european river, the case of the Tydale river". 
Les fonds de la Royal Fisheries Corporation (RFC) ont permis d'acheter 8 capteurs sous-marins le long de la Tydale qui bien paramétrées étaient capables de ne compter que des poissons dont la masse était supérieure à 10 kg. Grâce à l'intelligence artificielle équipant la caméra, les silures ont été comptés avec une marge d'erreurs d'environ 3%. 
Nous avons signalé dans les données obtenues certains incidents pouvant affecter la bonne conduite de l'étude. 
En février et mai, nous avons noté que certains capteurs ne fonctionnaient plus correctement et avons du les réparer. En octobre, c'est le système centralisé de collecte des résultats qui est tombé en panne pendant 11 jours et nous a fait perdre des données. 
Par ailleurs, nous avons signalé que les activités nautiques sur la Tyndale qui avaient lieu certains jours de juin et de juillet pouvaient être de nature à perturber les silures qui pour cette raison étaient moins vraisemblablement moins nombreux ces jours-là. 

J'espère que ces chiffres vous permettront malgré tout de faire progresser votre étude et de soumettre votre publication avant le printemps. 

En vous souhaitant une très bonne fin de journée, 

Mickael. J. Bernache, Biodiversity Research Institute of Portland

champs RDG

## identification du jeu de données

- titre   
- Lien vers les données si pas hébergées dans RDG  

## informations relatives au gestionnaire des données

- auteur  
- affiliation de l'auteur  
- identifiant auteur  
- identifiant organisme  

## informations relatives au producteur des données

- Nom 
 du producteur  
- Affiliation du producteur  
- Nom abrégé du producteur  
- logo du producteur  
- URL de l'organisme du producteur  

## Description du jeu de données  

- Description des données    
- langue  
- date  

## mots-clé   
- terme     
- URL du terme    
- Nom du vocabulaire  
- URL du vocabulaire  
- Type de données 
- autre type de données  
- publication associée  
- citation   
- type d'identifiant 
- identifiant de la publication    
- URL de la publication  
  
## informations sur la subvention

- acronyme  
- titre  
- identifiant de l'organisme    
- lien vers le site web de l'organisme  
- work package    
- tâche  
  
## déposant

- nom du déposant  
- date de dépôt

Références

Gibney, E., & Van Noorden, R. (2013). Scientists losing data at a rapid rate. Nature. https://doi.org/10.1038/nature.2013.14416
Thomas, M., Éric Tannier. (2023, May 17). Se réapproprier la production de connaissance - AOC media. AOC media - Analyse Opinion Critique. https://aoc.media/opinion/2023/05/17/se-reapproprier-la-production-de-connaissance/
Ziemann, M., Poulain, P., & Bora, A. (2023). The five pillars of computational reproducibility: Bioinformatics and beyond. Briefings in Bioinformatics, 24(6), bbad375. https://doi.org/10.1093/bib/bbad375